Une infrastructure pour l'annotation linguistique de documents issus du web : le projet ALVIS
نویسندگان
چکیده
Résumé. Cet article présente une architecture logicielle, la plate-forme Ogmios, permettant l’annotation automatique de documents issus du web. Cette architecture est fondée sur l’intégration de composants d’analyse linguistique et présente une double originalité : elle peut être adaptée en fonction du domaine visé et elle peut analyser de manière robuste des collections de documents hétérogènes, ce qui est le propre des collections construites à partir du web. Cet article prend comme exemple une collection de documents du domaine de la biologie. Nous montrons comment la plateforme Ogmios peut être adaptée à ce domaine et nous détaillons les performances obtenues suite à cette adaptation. Les résultats de l’analyse des documents par la plate-forme peuvent ensuite être pris en compte par des moteurs spécialisés sur internet.
منابع مشابه
فایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان
Tâ ÇÉÅ wx W|xâ Revue des Études de la Langue Française Revue semestrielle de la Faculté des Langues Étrangères de l'Université d'Ispahan Cinquième année, N° 8 Printemps-Eté 2013, ISSN 2008- 6571 ISSN électronique 2322-469X Cette revue est indexée dans: Ulrichsweb: global serials directory http://ulrichsweb.serialssolutions.com Doaj: Directory of Open Access Journals http://www.doaj.org ...
متن کاملTraduction automatisée fondée sur le dialogue et documents auto-explicatifs : bilan du projet LIDIA
RÉSUMÉ. Nous dressons un bilan des travaux que nous avons conduits dans le cadre du projet LIDIA de traduction automatisée fondée sur le dialogue pour auteur monolingue. En mettant en œuvre une architecture linguistique à transfert multiniveau, nous avons proposé et évalué une méthodologie de production de questions de désambiguïsation interactive. Les modules mis en œuvre coopèrent au sein d’u...
متن کاملApprentissage actif pour l'annotation de documents
RÉSUMÉ. Dans le cadre du projet LegDoc au Centre Européen de Recherche de Xerox, nous avons développé des composants pour l’annotation sémantique de documents semi-structurés. Alors que certaines entités sémantiques ont une forme régulière et peuvent être facilement extraites, d’autres collections plus complexes et hétérogénes nous ont amenés à déployer des méthodes d’apprentissage automatique....
متن کاملUtiliser des résultats d'alignement pour enrichir une ontologie
Résumé. En établissant des relations entre des concepts issus de deux ontologies distinctes, les outils d’alignement peuvent être utilisés pour enrichir une des deux ontologies avec les concepts de l’autre. Cet article identifie des traitements complémentaires à l’alignement pour finaliser l’enrichissement et montre comment ils peuvent être spécifiés et mis en œuvre dans TaxoMap Framework. Une ...
متن کاملWeb sémantique pour la mémoire d'expériences d'une communauté scientifique : le projet MEAT
Résumé. Cet article décrit le projet MEAT (Mémoire d'Expériences pour l'Analyse du Transcriptome) dont le but est d'assister les biologistes travaillant dans le domaine des puces à ADN, pour l'interprétation et la validation de leurs résultats. Nous proposons une aide méthodologique et logicielle pour construire une mémoire d'expériences pour ce domaine. Notre approche, basée sur les technologi...
متن کامل